如何產生一個優質的 dataset 來增強訓練? 生成優質的資料集需要考慮哪些事情呢? 昨天我們介紹這個比賽的時候,有提到主辦方只給我們少量的訓練資料(20...
在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...
EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...
在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...
前情提要 昨天我們從主題建模、prompt name 與 score 的分佈等,更全面地探勘本次賽題的訓練資料集;也透過設計一些專用於這種 code compe...
資料分析/大數據分析的定義 是「Analytics」? 還是「Analysis」? 在慣用中文思考的情況下,兩者都被稱為分析,是無法用中文來區分兩者差異。 然而...
前情提要 在前一天的內容中,我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...
前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...
在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...
緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...
嗨!大家好!我是Eva!一位正努力跨進資料科學領域的女子!沒想到寫著寫著 30 天的日子就這樣過去了,能完成挑戰實在太感動了 😭 ■ 系列回顧 在這 30 天挑...
INFORMS(國際運籌學和管理科學協會)專業數據分析認證 引用自Certified Analytics Professional 業務理解(Busin...
企業數位化轉型標志~數位化人才的身份認證 數位化人才認證標準——CDA(Certified Data Analyst)“CDA數據分析師”,是在數位經濟大背景和...
前言 10年前學校教的 「資料探勘」 再到現在的 「數據分析」 已經慢慢朝向按照 產業專精 甚至最終 「數據科學 (人工智慧)」 ~ 其實總的來說對於數據的敏...
■ 題目|Interview Query - Customer Analysis You’re given a dataframe containing sal...
續上一篇機器學習 挑戰 - Day 8 我想使用最後一篇文章來回顧我在第0天的原始計劃以及實際所做的事情。 回報時間框架: 日內交易(每日)- 我主要關注每日...
■ 題目|Interview Query - Complete Addresses You’re given two dataframes. One conta...
■ 題目|Interview Query - Impute Median You’re given a dataframe df_cheeses contain...
■ 題目|Interview Query - Rain on Rainy Days You’re given a dataframe df_rain conta...
■ 題目|Interview Query - Over 100 Dollars You’re given two dataframes: transaction...
先前,我們大約花了三週的時間學習 Pandas 的操作,是時候好好驗收學習成果了!從今天開始,我將每天和大家分享一道題目,親自撰寫解法,並提出我的解題思維,...
Python 中,除了 Matplotlib 適合用於資料視覺化之外,Seaborn 也是一個好用的函式庫,兩者經常會放在一起介紹或者使用,今天就和大家聊聊...
Pandas 是 Python 生態系中,適合用來做資料分析或機器學習的套件,上一篇文章介紹 Pandas 中對新手相當友善的繪圖函數 plot( ) ,讓...
在對於外部的連結之後,我們再細部介紹一下 Operator 的使用,其實在 Operator 層級也可以有不同的使用方法。Operator 本身有多種種類,其作...
簡報時,我們常會聽到「用數字說話」這句話,面對主管、同事真的是講出每個數字就能讓聆聽者理解嗎?錯!大部分的人單看數字都容易眼花撩亂,想讓對方理解你的報告,圖...
VS Code 的使用者應該有發現 Pandas 的輸出結果有時並不是那麼好閱讀,對於一個有版面強迫症的我來說,曾經因為 DataFrame 歪掉的格式十分...
Excel 本身提供方便的樞紐分析,但你有想過用程式該如何撰寫嗎?今天就來分享一下 Pandas 中的樞紐分析:pivot_table( ) 一起透過交叉分...
在大型數據當中,有時我們會需要透過群組的方式概括整體資料,除了用以觀察之外,也能進一步深入處理,本文將分享如何使用資料的分組和聚合操作,內容包含: 資料分...
在茫茫數據海當中,資料散布在各種不同的地方,可能是資料庫、網站、文件等,為了要有效統一資料集,方便後續的分析和報告,資料合併的操作是不可不學的,以下將以案例...
在昨天標籤編碼法(Label Encoding)的舉例中,我們可以透過 sklearn 中的函數 LabelEncoder 將類別型態轉為數值型態,那大家是...